作者:王一飞 | 来源:互联网 | 2023-10-12 15:24
“Hi Sir,请播放莫扎特的钢琴曲”,“好的,请问您播放哪一首?”... 如今语音助手已经走入千家万户,无论是手机、平板还是智能音箱,几乎都配有随唤随到的语音小助手。
这些对答如流的语音助手,到底有多少词汇量?是否和人类一样需要从ABC开始积累呢?答案是他们并不需要逐步积累,而是通过发音词典库,这个库中涵盖了语音助手能够识别的所有语音。
发音词典 (Lexicon) 包含了从单词 (Words) 到音素 (Phones) 之间的映射,作用是用来连接声学模型和语言模型。发音词典包含系统所能处理的单词的集合,并标明了其发音。其与语音识别其他模块的关系如下:通过发音词典得到声学模型的建模单元和语言模型建模单元之间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间,用于解码器进行解码工作。我们的识别目标是单词序列 (句子的分词结果),每个单词由提前构造好的发音词典 (Lexicon) 转为对应的音素序列 (中文的音素通常指拼音中的声母和韵母),即将单词序列转为音素序列。
在语音识别系统中,发音词典包含的数据量越大,对于提升语音识别的准确率效果越好。发音词典和语种相互对应,每个语种需要准备一个发音词典。当新词汇产生时,可以将这些词汇及对应音标添加进去,不断扩充词典规模。因此,词汇量、音标标注和校对的准确性是衡量该发音词典质量的重要标准。
目前,很多发音词典是自己生成的,准确性相对较低,将影响语音识别系统的性能。如何搜集到准确、大量、覆盖面全的发音词典,成为语音领域的又一难题。同时,由于发音词典的搜集、标注、清洗需要专业的语言学家和声学家把控,因此发音词典语料的开源甚少。
目前,Magic Data已建立了成熟的发音词典构建流程,积累了深厚的语音语言学基础研究成果。拥有包括粤语、闽南语、四川话、天津话、武汉话、长沙话、山西话、南昌话、上海话、客家话等各种方言。同时拥有众多常用的语种,包括英语、日语、法语、西班牙语、意大利语、德语、葡萄牙语、印尼语等语种的发音词典。
发音词典需要经过全面的搜集、精细的标注、其中每个单词都经过人工校对,才可以称为高质量的发音词典。通过发音词典可以用来构建更大、更全面、更准确的发音词典库,从而提升语音识别的准确率。